查看原文
其他

Drug Discov Today|基于AI的蛋白质结构数据库有可能加速罕见病研究

智药邦 智药邦 2022-06-15

2021年12月25日,来自意大利都灵大学的Giulia Carona和日本东海大学医学院的Shinji Hadano等人在Drug Discov Today合作发表综述“基于人工智能的蛋白质结构数据库有可能加速罕见病研究:AlphaFoldDB和IAHSP/Alsin的案例”。

以下是该综述内容。

亮点

基于人工智能的蛋白质结构数据库支持罕见疾病药物发现计划。

• 人类AlphaFoldDB alsin模型符合同源建模尝试。

• Alsin突变和寡聚化分析揭示了其成药潜力。

• AlphaFoldDB可以推动具有代表性的动物模型的选择。

• 专注于治疗婴儿上行遗传性痉挛性截瘫(IAHSP)的药物发现工作值得进行。

摘要

基于人工智能(AI)的蛋白质结构数据库将对药物发现产生影响。本文专注于一种导致罕见运动神经元疾病(婴儿上行遗传性痉挛性截瘫 (IAHSP) 和青少年型原发性侧索硬化(JPLS),肌萎缩侧索硬化症(ALS))的蛋白质Alsin,展示了AlphaFold如何支持罕见疾病研究项目。首先,我们将 AlphaFoldDB人类Alsin模型与alsin域的同源模型进行了比较,然后评估了Alsin和IAHSP患者中存在的实验表征突变体的柔性。接下来,本文将负责其生理作用的二聚体/四聚体Alsin的初步模型与文献中报道的假设模型进行了比较。最后,我们提出了用于候选药物测试的最佳动物模型。总体而言,本文通过计算表明,研究人员应该针对涉及Alsin的疾病进行药物发现工作。

设置场景:AlphaFoldDB、IAHSP和alsin

过去几十年,小分子发现计划的特点是试图对候选药物进行合理设计。一旦确定了目标,研究人员应在设计任何先导化合物之前,对其生物学和结构特征进行彻底的表征。然后基于结构的药物设计可以快速且相对便宜地进行。这种方法的主要问题是初始3D目标结构的质量。访问实验数据是首选,但由于成本和时间问题,情况并非总是如此。因此,研究人员开发了几种计算工具来构建3D蛋白质结构。

虽然同源建模(HM,也称为比较建模)是最普遍的技术,但人工智能的最新进展为提高蛋白质模型的质量提供了一个有趣的框架。例如,由谷歌的人工智能项目Alpha及其英国子公司DeepMind (https://deepmind.com)开发的Alpha Fold,在2018年和2020年赢得了“蛋白质结构预测关键评估”(CASP)大赛,并完成了60%和>90%的全局距离测试(Global Distance Test,GDT)DeepMind 与欧洲生物信息学研究所 (EMBL-EBI) 之间的合作促成了AlphaFoldDB平台(https://alphafold.ebi.ac.uk/)的建立,这是一个可免费访问的存储库,包含 73,000多个计算结构,代表了UniProt数据库(www.uniprot.org)的重要部分。 这种3D蛋白质结构的可用性为结构生物学和药物设计提供了巨大潜力,原因如下:(i) 大多数条目是全蛋白结构;(ii) 大多数条目是通过相同的计算程序获得的;(iii) 由于所使用的AI算法的性质,结构改进的潜力几乎是无限的。尽管如此,人类可以从基于人工智能的蛋白质结构数据库中显著受益的医学分支仍有待商榷。

仅在美国,就有超过7,000种罕见疾病(即影响不到20万名患者的疾病)共同影响了超过3,000万人的生活,并且大多数仍然缺乏特定的治疗方法。罕见病研究存在许多局限性,主要问题仍然是支持更普遍条件的商业投资水平低。虽然资助罕见疾病研究的原因已经在其他地方(https://pharmaboardroom.com/articles/investments-and-deal-activity-in-orphan-drug-products/)进行了讨论,但快速廉价地估计药物发现项目的可行性和转移到其他未满足的疾病可以作为进一步的推动力。因此,罕见疾病可以从基于AI的蛋白结构数据库技术中受益:免费可靠的3D结构和可用的的罕见疾病相关蛋白质(特征不佳)代表了低成本的研究机会。值得注意的是,在某些情况下,只有点突变负责疾病的发生,能够将其空间定在可靠的3D结构中,可为设计合理的药物发现策略提供了基础。此外,在运动神经元疾病(MND)中,靶标通常聚集在突变敏感的寡聚体中,研究人员如果不知道全蛋白结构,几乎不可能对其进行表征。

IAHSP是一种罕见的神经系统疾病,发病机制与其他MND(如ALS II型和JPLS)相同,涉及早熟的进行性肌肉僵硬和行走丧失,随后扩散到上肢和非随意肌肉组织。仅有约50例IAHSP报告病例,但据估计全世界约有150名儿童患有这种疾病,目前尚无特效疗法。IAHSP的发病机制是编码alsin(一种通过内体/内吞途径发展和维持运动神经元所必需的蛋白质)的ALS2突变。Alsin是一种由1,657个氨基酸组成的蛋白质,分为4个结构域:RLD(残基1-690)、DH/PH(残基690-1007)、MORN 重复序列(残基1049-1249)和 VPS9-HB(残基1391-1657)。最近的研究表明,野生型(WT) Alsin 以四聚体的形式存在于溶液中。结构首先通过VPS9在两个二聚体中组装,再通过DH/PH的相互作用形成最终的四聚体。大多数导致IAHSP病例的ALS2突变要么发生在RLD或VPS9域,要么破坏四聚体的稳定,要么直接影响下游通路所涉及的残基。

IAHSP的常染色体隐性支持至少在理论上,解决一个突变就足以恢复患者的Alsin功能。然而,由于缺乏实验性或计算性的全Alsin 3D模型,制药公司将不会对IAHSP相关疾病进行治疗。因此,这种疾病可以从基于AI的蛋白质结构数据库的计算策略中受益,并专注于识别Alsin的成药潜力。因此,我们在这里报告一项研究结果,该研究旨在:(i) 从人类Alsin模型中提取AlphaFoldDB提供的所有结构信息,并将其与同源模型进行比较;(ii) 评估特征,例如野生和突变的Alsin的柔性;(iii) 根据实验证据模拟二聚体和四聚体结构;(iv) 研究候选药物临床前测试的最佳动物模型。为了实现这些目标,我们将AlphaFoldDB与相对简单且用户友好的在线免费计算工具相结合。因此,这项研究代表了一项宝贵知识,可用于评估针对罕见病(如Alsin相关疾病)新疗法的药物发现计划的可行性和可转移性。

人类Alsin模型以及与VPS9和RLD域同源模型的比较

我们在AlphaFoldDB中搜索了人源Alsin (UniProt Q96Q42)的结构。下载的蛋白质数据库 (PDB) 文件显示所有1,657个残基都已建模,特定的颜色编码标识了不同的域(图1a、b)。RLD的结构为7β螺旋,叶片3和4之间有一个无序区域(307 个氨基酸;图1a,黄色、橙色和浅蓝色)。就DH/PH(图1a,深灰色)和MORN(图1a,紫色)而言,结构成分明确:DH/PH在C端包含6个α-螺旋和1个 β-折叠区,而MORN由22条β-折叠链组成。

在VPS9中,根据Del Prato及其同事给出的命名法对2个区域进行了识别和颜色编码:螺旋束区域(HB,图1a、b中的绿色)和VPS9核心(图1a、b中的蓝色),分别包含6个和4个 α 螺旋。值得注意的是,形成HB区域的螺旋似乎被短的无序区域隔开(图1a),VPS9(C 端)与RLD(N 端)在空间上非常接近,因此,Alsin模型假定为U形折叠模式(图1a)。

图1 来自AlphaFoldDB的人源Alsin模型与之前的同源建模(HM)工作相比。(a)域颜色编码的人类Alsin模型。(b) (a) 中的域编码和序列位置。(c) Alsin序列中每个残基的pLDDT。(d) VPS9的叠加和(e)每个残基的均方根偏差(RMSD) 图。(f) RLD的叠加。(g) (f) 中每个残基的RMSD图。

AlphaFoldDB提供了一个基于残基的域置信指数:pLDDT。该度量是模型组装过程中提供的多次统计检验的结果;它可以在0到100之间振荡,100表示完全置信坐标。将70以上的每个区域解析为Alsin模型的离散颜色编码(图1c)显示,大多数残基都以高可信度解析,但有两个例外:(i)218-524 RLD无序区域(平均 pLDDT 为 35.44);(ii) 位于RLD叶片、DH/PH-VPS9螺旋和MORN链之间的一些环。

然而,后面的这些环不影响整体平均域 pLDDT,所有结构化区域pLDDT>70(图1c)。另一个模型评估指标是预测对齐误差 (PAE),以x , y矩阵的形式表示为预期位置误差 (Å) ,其中每个残基x与每个残基y的位置对齐。这对于评估域间预测精度很有用。在Alsin模型的情况下,每个域都是自洽的,显示与pLDDT一致的低PAE值,而互易域位置通常显示出一些不确定性。唯一的例外是DH/PH,它与RLD的结构化组件一致。

为了更具体地评估先前HM尝试与AlphaFoldDB结构之间的一致性,我们考虑了以下模型:(i) 我们内部开发的VPS9-HB同源模型,包括VPS9的螺旋束和核心(残基 1392-1657); (ii) Soares和同事的RLD,涵盖了β螺旋桨部分(残基1-218和546-690)。VPS9模型使用ModWeb ( https://modbase.compbio.ucsf.edu/modweb/)。我们使用Chimera进行了结构叠加 [VPS9的平均均方根偏差 (RMSD) 为16.8 Å,而RLD为8.9 Å]。VPS9的核心部分保持相似的螺旋结构,而HB部分的组织方式不同(图1d):来自 AlphaFoldDB 的模型显示两个较短和一个较长的螺旋,与我们的3个类似的螺旋模型(图1d,绿色)相比,一个无序区域连接螺旋1和2。此外,HB和核心之间的区域是不同的:AlphaFold将最后一个α-螺旋直接连接到核心到HB,而在我们的模型中,我们按照之前的建议对环进行了从头建模。在我们的解释中,HB的建模质量很差,得到了低pLDDT和差RMSD的支持(图1c、e)。

在RLD方面,我们发现之前可用的模型和AlphaFoldDB之间具有更高的一致性。对该区域的检查显示,RMSD值较低(图1g)的7β螺旋结构相同(图1f),其中较高的RMSD区域是叶片或C和N端之间的环。

导致IAHSP病例的Alsin突变

突变蛋白的实验性生产(如通过CRISPR-Cas9方法)可以评估所考虑突变的下游影响,从而阐明如 IAHSP等疾病的病因。然而,为了制定力学假设,处理完整蛋白质3D结构的健全模型是有用的,该模型允许在致病点突变和缺失的3D空间中进行定位。因此,我们使用Chimera对四个Alsin点突变进行建模,并突出显示负责IAHSP、类IAHSP聚集和类似罕见MND的两个缺失区域。

前四个点突变导致氨基酸取代(图 2a):R1611W出现在VPS9核心中,并已报告为IAHSP (图 2a,蓝色,顶部)。鉴于已发表的数据表明Alsin首先通过VPS9的相互作用在二聚体中聚集,然后是四聚体,并且突变R1611W无法实现四聚体,因此研究推测R1611W阻止了初始二聚化。这可能是因为精氨酸和色氨酸的性质不同,分别是碱性(带电)侧链和芳香侧链。此外,由于W1611与RLD的方向和接近度(图 3a,红色),且RLD易发生疏水相互作用,我们推测VPS9(R1611W)-RLD存在疏水相互作用。

P1603A(图 2a,蓝色,底部)是另一种形成四聚体的VPS9核心突变。然而,它无法对Rab5进行下游GEF活动,这是所描述的主要作用机制。残基1603的方向远离与其他域(即RLD)的空间冲突,为模拟 Alsin-Rab5复合物提供了基础。对泛Alsin 3D模型的处理提供了以前不可用的信息。其他两个模拟点突变是 JPLS和IAHSP诱导G49R(图 2a,橙色,顶部)和S100I(图 2a,橙色,底部),位于 RLD与该域相关的主要活动是驱动Alsin内体定位。在构象变化后,这些突变不允许发生的事件将这些突变定位在 β 螺旋桨结构的“上表面”,为模拟该域的动力学和在分子水平上表征Alsin重定位提供了机会。

图2 Alsin 突变模型。(a) R1611W(蓝色,顶部)、P1603A(蓝色、底部)、G49R(橙色、顶部)和 S100I(橙色、底部)点突变模型。(b,c) K1457* (b)和 Δ861-T904 (c)缺失突变体。删除的部分是红色的。

图3 由CABS-flex2.0评估的Alsin柔性。(a)基于均方根波动(RMSF)的颜色编码alsin结构。(b) alsin的柔性和稳定区域。(c) pRMSF和pLDDT之间的相关性。(d)野生型Alsin和3个Alsin突变体的每个残基的RMSF热图。

第一个考虑的缺失是K1457*,导致移码、过早终止密码子和VPS9截断的Alsin(图2b)。在其他患者中也发现了类似突变体显然无法四聚,因为它们缺乏VPS9并且最有可能被降解。在患者中发现的另一个缺失是Δ861-T904 23(图2c)。该突变体缺少结构域DH/PH的最后一个α-螺旋,如红色突出显示。鉴于突变体Δ861-T904不能四聚化以及VPS9和DH/PH相互作用,该模型信息暗示了α-螺旋的重要作用。


调节蛋白质动力学和构象变化的一个方面是结构柔性,它可以有很大差异,并且是几种病理的中心。因此,我们旨在使用基于粗粒度分子动力学的工具CABS-flex2.0评估野生型和突变体Alsin的残基柔性。


野生型Alsin显示了不同的域间柔性配置文件。均方根波动 (RMSF) 用于识别柔性 (RMSF>1) 或稳定 (RMSF<1) 区域。数据显示,三个更柔性的区域是:RLD无序序列(272-329);VPS9 HB环(1446-1462);和N端区域(1-7),而几乎所有结构化组件的RMSF<1(图 3a,b)。此外,RLD、DH/PH、MORN和VPS9的结构部分也存在一些差异,它们是最外围的残基,通常在中间的RMSF间隔(1-5 Å)内,而更多的内部残基通常<1 Å(图3a,b)。


RMSF颜色编码结构(图 3a)和pLDDT模式(图1c)的可视化比较表明,柔性区域更难以建模,这两个值之间的相关性也显示了这一点(图3c) 。然而,数据的不均匀分布表明极端情况(如RLD 219-524)存在因果关系。在这些区域,柔性似乎构成了预测不确定性的基础(图3c)。


最后,我们分析了导致Alsin功能丧失的突变的柔性:R1611W、P1603A 和 L1617A。野生型和突变体之间的柔性差异可以忽略不计(图 3d)。突变区域没有差异,而靠近位置1450的柔性略有增加,对应于VPS9-HB柔性环。这表明该环与突变所在的VPS9 核心区域相互作用。然而,VPS9 环的建模质量很差,因此,研究应谨慎做出任何结论。

案例研究:Alsin寡聚的初步分析

先前的工作通过患者报告、人工临时突变和截断的Alsin构建体证明VPS9是寡聚化的必要域。在提议的模型中(图4a),第一个事件涉及通过VPS9的相互作用形成二聚体,然后通过DH/PH相互作用组装两个二聚体单元。完整的Alsin结构和免费提供的在线蛋白质对接引擎的可用性,使我们能够从简单的卡通进一步发展到提供具有多聚体相互作用的合适3D模型。

因此,我们将此Alsin结构提交给网络服务器HDock ( http://hdock.phys.hust.edu.cn/ )。有趣的是,这导致预测的对接姿势显示域VPS9作为前五个最有利结果中的结合界面(图4b)。

图4 Alsin二聚体、四聚体和动物模型的评估。(a)基于先前生化实验数据提出的相互作用模型。(b)由HDock获得的 VPS9结合的二聚体结构。(c)四聚体结构,二聚体通过与ClusPro获得的DH/PH相互作用。(d)来自(c)的“压缩”四聚体模型的接触残基单维图。(e) Alsin结构[均方根偏差 (RMSD), x , y图] 和序列(热图)与人类的同源性。缩写:CT、C 端;NT,N 端。

一旦获得合适的二聚体结构,本文旨在预测与图4a中模型一致的四聚体组件。我们提交了获得的VPS9 交互二聚体与ClusPro对接(www.cluspro.org)。我们发现了DH/PH域构成交互接口的几种结构。在某些情况下,四个DH/PH中只有两个相互作用,构成“开放”四聚体构象,而其他姿势显示“压缩”四聚体,其中其他两个DH/PH也近在咫尺。在顶级预测中,我们获得了图4中的结构c,仔细概括了之前提供的卡通模型的特征(图 4a)。该四聚体涉及两个二聚体通过单体单元II和III的DH/PH相互作用(图4c),而I和IV的DH/PH面对面,这表明了另一种潜在的相互作用。

为了调查接触残基,我们将四聚体提交给接触分析工具ProSurf (http://curie.utmb.edu/prosurf.html),并将结果与先前从HDock检索到的接触残基信息相结合(图4d)。结果基本符合预期,主要是DH/PH和VPS9的部分。然而,我们发现了一些涉及MORN的N端尾部的接触,表明该区域也可能在寡聚化中起作用(图4d)。在我们的假设中,大型复合蛋白对接的局限性可能解释了为什么单体I和IV的DH/PH接近但不相互作用。

AlphaFold的代码已在谷歌Colab机器上实现,初步研究表明,用户很快就能使用该工具对全蛋白多聚体进行建模。尽管这超出了这项工作的范围,但我们不能排除这可以改进我们的模型。然而,我们需要更多高昂的计算策略(如分子动力学)来获得Alsin寡聚体的最终模型。总体而言,本文的发现是未来改进 Alsin寡聚体的坚实起点,并支持进一步努力的需要,来发现能够重建Alsin病理突变体功能的化合物。

基于结构信息的体内模型评估

基础研究和应用研究共有的主要问题之一是充分选择具有代表性的动物模型。临床前研究的最新进展通常以小鼠模型为代表,因为小鼠群落相对容易在合理的时间内建立,并且小鼠与人类表现出高度的遗传同源性。然而,人们应该考虑更便宜、更快的体内模型。从这个意义上说,使用相同的计算方法获得不同物种的全蛋白结构是一个有价值的比较工具。


以IAHSP为例:在AlphaFoldDB中,alsin结构被建模为:H. sapiens、Mus musculus、Rattus norvegicus、Danio rerio(斑马鱼)和Drosophila melanogaster。本文下载了所有动物模型的alsin结构,并使用H. sapiens Alsin作为模板进行了序列和结构叠加[平均 RMSD M. musculus,1.22 Å;R. norvegicus,2.99 Å;D. rerio (a) 8.2 Å, (b) 4.7 Å;D. melanogaster , 11.5 Å]。根据宏观观测,主要域似乎具有相似的结构特征和方向,零星地引入了有序域之间的无序环(如在D. melanogaster的MORN 中)。基于残基的RMSD和保守性分析(图4e)揭示了啮齿动物模型显著优于其他模型,具有更高的序列和结构相似性。


基于遗传相似性的通用模型保真度排名是当前标准。尽管如此,AlphaFoldDB的结构可以为评估每个模型的研究特定转化能力添加重要信息,并有助于遵守现代动物实验指南。例如,考虑有人想初步测试位于位置1611 (VPS9)周围的活性化合物结合残基的有效性;尽管M. musculus是一种代表性模型,但在D. rerio中的实验可能就足够了,其资源消耗低于使用小鼠。相比之下,在一项针对1300位置(Cys, MORN) 的研究中,人们应避免使用D. melanogaster模型,因为该区域有两个额外的环,在结构上与H. sapiens不同。

结语

基于人工智能的新技术有望显著提高药物发现效率。由于不利的成本/患者比率,研究投资者往往忽视的罕见疾病可能会从这种方法中受益匪浅。特别是基于人工智能的蛋白质结构数据库如 AlphaFoldDB,结合相对简单的计算工具,为研究给定药物发现项目的可行性提供了快速廉价的策略。


IAHSP/Alsin符合使用这种方法研究的理想疾病-蛋白质对的标准:尽管Alsin已在细胞模型中被分离和研究,但迄今为止还没有实验或计算的完整3D结构报道。鉴于其突变是导致IAHSP发病的唯一因素,而多聚化是驱动 Alsin 生理作用的关键过程,科研人员应研究结构因素以发现基于Alsin的疾病的治疗方法。


侧重于突出Alsin多聚化过程和突变对这种现象的影响的计算工作(如使用分子动力学工具)和虚拟筛选程序,预计会很漫长、复杂,需要高水平的专业知识。因此在开始此类项目之前,投资者会想知道预期的成功率。我们使用务实的方法评估了H. sapiens Alsin模型的质量,将其与局部同源建模域进行比较,然后评估蛋白质的柔性。这在见证突变位置并形成关于多聚体复合物和致病机制的假设时至关重要。最后,我们假设了所需的动物模型。尽管还有很多工作要做,但我们的方法表明,AlphaFoldDB提供了有关alsin的更多信息,并支持治疗IAHSP的药物发现工作。


值得注意的是,这种IAHSP方法可能对其他病理学有用,并有望激励罕见病领域的研究,同时满足患者的需求和市场驱动的研究。然而,人们应始终牢记,任何计算策略都需要实验验证来获得最终确认。


参考资料

Matteo Rossi Sebastiano, Giuseppe Ermondi, Shinji Hadano, Giulia Caron, AI-based protein structure databases have the potential to accelerate rare diseases research: AlphaFoldDB and the case of IAHSP/Alsin, Drug Discovery Today, 2021, ISSN 1359-6446,

https://doi.org/10.1016/j.drudis.2021.12.018.


----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向




- 历史文章推荐 -


AlphaFold

●Nat Methods特刊|2021年度方法:蛋白质结构预测

迈入世界领先梯队!天壤自研蛋白质结构预测平台 TRFold,单张 GPU 16 秒实现精准预测

对标AlphaFold2!深势科技发布Uni-Fold蛋白结构预测工具,并开源训练代码

Nature|人工智能助力蛋白质折叠预测

Science|AI揭示了蛋白质复合物的结构

●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs

Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?

●Nature社论|结构生物学中的人工智能将会继续



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存